加载拍拍贷 Loan Characteristics 数据集
## [1] 328553 21
## 'data.frame': 328553 obs. of 21 variables:
## $ ListingId : int 126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
## $ 借款金额 : int 18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
## $ 借款期限 : int 12 12 24 12 6 12 6 12 12 6 ...
## $ 借款利率 : num 18 20 20 18 16 14 18 18 16 18 ...
## $ 借款成功日期 : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
## $ 初始评级 : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
## $ 借款类型 : Factor w/ 4 levels "电商","普通",..: 3 3 2 3 1 2 1 2 3 1 ...
## $ 是否首标 : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
## $ 年龄 : int 35 34 41 34 24 36 27 32 33 25 ...
## $ 性别 : Factor w/ 2 levels "男","女": 1 1 1 1 1 1 2 1 2 1 ...
## $ 手机认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
## $ 户口认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
## $ 视频认证 : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
## $ 学历认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 征信认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 淘宝认证 : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
## $ 历史成功借款次数: int 11 4 5 6 13 7 15 7 7 9 ...
## $ 历史成功借款金额: num 40326 14500 21894 36190 77945 ...
## $ 总待还本金 : num 8713 7891 11726 9703 0 ...
## $ 历史正常还款期数: int 57 13 25 41 118 56 75 52 41 49 ...
## $ 历史逾期还款期数: int 16 1 3 1 14 0 8 0 2 4 ...
## ListingId 借款金额 借款期限 借款利率
## Min. : 126541 Min. : 100 Min. : 1.00 Min. : 6.5
## 1st Qu.:11908871 1st Qu.: 2033 1st Qu.: 6.00 1st Qu.:20.0
## Median :19523251 Median : 3397 Median :12.00 Median :20.0
## Mean :19079479 Mean : 4424 Mean :10.21 Mean :20.6
## 3rd Qu.:26298621 3rd Qu.: 5230 3rd Qu.:12.00 3rd Qu.:22.0
## Max. :32819531 Max. :500000 Max. :24.00 Max. :24.0
##
## 借款成功日期 初始评级 借款类型 是否首标
## 2017-01-25: 3558 A: 10284 电商 : 1069 否:241090
## 2017-01-20: 3063 B: 33188 普通 :118103 是: 87463
## 2016-12-14: 2266 C:131705 其他 : 97302
## 2016-12-02: 2033 D:134860 APP闪电:112079
## 2017-01-09: 1859 E: 17027
## 2017-01-04: 1806 F: 1489
## (Other) :313968
## 年龄 性别 手机认证 户口认证
## Min. :17.00 男:221946 成功认证 :123007 成功认证 : 10105
## 1st Qu.:24.00 女:106607 未成功认证:205546 未成功认证:318448
## Median :28.00
## Mean :29.14
## 3rd Qu.:33.00
## Max. :56.00
##
## 视频认证 学历认证 征信认证
## 成功认证 : 18501 成功认证 :114124 成功认证 : 9606
## 未成功认证:310052 未成功认证:214429 未成功认证:318947
##
##
##
##
##
## 淘宝认证 历史成功借款次数 历史成功借款金额 总待还本金
## 成功认证 : 1152 Min. : 0.000 Min. : 0 Min. : 0
## 未成功认证:327401 1st Qu.: 0.000 1st Qu.: 0 1st Qu.: 0
## Median : 2.000 Median : 5000 Median : 2542
## Mean : 2.323 Mean : 8786 Mean : 3722
## 3rd Qu.: 3.000 3rd Qu.: 10355 3rd Qu.: 5447
## Max. :649.000 Max. :7405926 Max. :1172653
##
## 历史正常还款期数 历史逾期还款期数
## Min. : 0.000 Min. : 0.0000
## 1st Qu.: 0.000 1st Qu.: 0.0000
## Median : 5.000 Median : 0.0000
## Mean : 9.948 Mean : 0.4233
## 3rd Qu.: 13.000 3rd Qu.: 0.0000
## Max. :2507.000 Max. :60.0000
##
## ListingId 借款金额 借款期限 借款利率
## 0 0 0 0
## 借款成功日期 初始评级 借款类型 是否首标
## 0 0 0 0
## 年龄 性别 手机认证 户口认证
## 0 0 0 0
## 视频认证 学历认证 征信认证 淘宝认证
## 0 0 0 0
## 历史成功借款次数 历史成功借款金额 总待还本金 历史正常还款期数
## 0 0 0 0
## 历史逾期还款期数
## 0
借款金额中位数是3397,最大值是500000,关注借款金额中的99%的数据,再次分析借款金额分布情况
主要的借款期限集中在12个月和6个月
借款利率大多分布在22%,20%,18%
25% 的用户年龄小于24岁,75% 的用户年龄小于33岁
用户初始评级大多为C级和D级
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.0 300.0 600.0 762.5 1000.0 70000.0
贷款总利息的平均值是762,中位数在600
lc$是否存在逾期 <- lc$历史逾期还款期数 >= 1
sum(lc$是否存在逾期)/dim(lc)[1]
## [1] 0.1533025
大约15%的借款用户存在逾期
数据集中有328553条数据,共有21个变量 对于数据单变量的观察,总结在分析图的下方。
主要感兴趣的特征为大约有15%用户存在逾期;以及不同年龄段和不同初始评级对借款金额对影响等。
我认为借款金额,借款期限,利息,用户年龄以及各项认证等特征,可以帮助判断哪些用户可能会逾期。
创造了3个新对变量,一个是布尔量,判断该用户是否存在逾期;另两个是计算该用户的总利息,以及总利息占借款金额比例。
并没有对原数据做清理和调整。
对’借款金额’,‘借款期限’,“借款利率”,“初始评级”,“借款类型” ,“年龄”,“是否存在逾期” 等变量抽样50000条数据做相关性分析.
## lc$初始评级: A
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.50 16.00 16.00 16.06 16.00 24.00
## --------------------------------------------------------
## lc$初始评级: B
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12 18 18 18 18 24
## --------------------------------------------------------
## lc$初始评级: C
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.00 20.00 20.00 19.99 20.00 24.00
## --------------------------------------------------------
## lc$初始评级: D
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 22.00 22.00 21.89 22.00 24.00
## --------------------------------------------------------
## lc$初始评级: E
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 22.00 24.00 22.85 24.00 24.00
## --------------------------------------------------------
## lc$初始评级: F
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 22.00 22.00 21.35 23.00 24.00
上图为不同评级对应的利率平均值情况,可以看出A评级的平均利率最低,评级为E的评级利率最高。
从上图中可得初始评级为A的评级年龄中位数最小,评级为E的平均年龄中位数最大
##
## Pearson's product-moment correlation
##
## data: 年龄 and 借款金额
## t = 44.071, df = 328550, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.07326066 0.08005921
## sample estimates:
## cor
## 0.07666083
经上述分析可得,年龄和借款金额之间的相关性并不大。
## lc$是否存在逾期: FALSE
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2000 3462 4399 5447 500000
## --------------------------------------------------------
## lc$是否存在逾期: TRUE
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2277 3217 4562 4745 500000
存在逾期的顾客年龄平均借款金额为4561,略大于没有逾期的顾客借款金额均值4399元。
## lc$是否存在逾期: FALSE
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17 24 28 29 32 56
## --------------------------------------------------------
## lc$是否存在逾期: TRUE
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 25.00 28.00 29.92 33.00 56.00
是否存在逾期与年龄的关系不强,存在逾期的顾客年龄平均值稍大。
“是否存在逾期”变量单独与其他变量的相关性并不大,计划尝试做逻辑回归分析其他变量与“是否存在逾期”存在的关系。
有趣的关系在于初次评级于年龄之间的关系,原本以为最高评级A级的平均年龄应该相对较高。 实际数据中发现平均年龄最高的评级为E级,评级A级的用户平均年龄反而是最低的。
相关最强的关系在初次评级和借款利率之间,其实是借款期限和借款利率之间的存在稍弱的正相关性。
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
分组来看是否逾期,在年龄和借款金额的关系上,两组差别并不大。
## lc$借款类型: 电商
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3000 12000 50000 115368 177000 500000
## --------------------------------------------------------
## lc$借款类型: 普通
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3000 4679 5245 6500 120000
## --------------------------------------------------------
## lc$借款类型: 其他
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2519 3329 4119 4720 500000
## --------------------------------------------------------
## lc$借款类型: APP闪电
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 934 1940 2765 4000 20000
从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值和中位数却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。 不同销售渠道借款金额差别还是很大的,接下来需要分析一下,借款类型是否会对利率有影响。
## lc$借款类型: 电商
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 15.00 16.00 16.12 18.00 20.00
## --------------------------------------------------------
## lc$借款类型: 普通
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.50 20.00 22.00 20.98 22.00 24.00
## --------------------------------------------------------
## lc$借款类型: 其他
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.50 20.00 20.00 20.51 22.00 24.00
## --------------------------------------------------------
## lc$借款类型: APP闪电
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 16.00 20.00 20.00 20.33 22.00 24.00
可以看出电商渠道对借款利率均值,中位数,最大值都是最低的,这对电商对借款金额高做了一定的解释。
##
## Call:
## glm(formula = 是否存在逾期 ~ ., family = binomial(link = "logit"),
## data = train)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -9.497e-06 -4.830e-06 -2.503e-06 -2.341e-06 1.451e-05
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.500e+01 2.765e+04 -0.001 0.999
## 借款金额 -1.909e-06 1.091e-01 0.000 1.000
## 借款期限 -1.736e-02 2.448e+03 0.000 1.000
## 借款利率 -2.563e-02 1.181e+03 0.000 1.000
## 初始评级B 2.177e-02 8.576e+03 0.000 1.000
## 初始评级C 1.588e-01 8.104e+03 0.000 1.000
## 初始评级D 2.776e-01 8.903e+03 0.000 1.000
## 初始评级E 3.764e-01 9.704e+03 0.000 1.000
## 初始评级F 2.190e-01 1.356e+04 0.000 1.000
## 借款类型普通 -6.662e-03 1.040e+04 0.000 1.000
## 借款类型其他 -2.700e-02 1.068e+04 0.000 1.000
## 借款类型APP闪电 -1.637e-02 1.158e+04 0.000 1.000
## 是否首标是 -1.388e+00 3.859e+03 0.000 1.000
## 年龄 7.781e-03 1.695e+02 0.000 1.000
## 性别女 8.713e-02 2.519e+03 0.000 1.000
## 手机认证未成功认证 -2.714e-02 2.989e+03 0.000 1.000
## 户口认证未成功认证 9.115e-03 3.489e+03 0.000 1.000
## 视频认证未成功认证 9.809e-03 3.192e+03 0.000 1.000
## 学历认证未成功认证 -1.061e-02 2.412e+03 0.000 1.000
## 征信认证未成功认证 1.324e-02 4.374e+03 0.000 1.000
## 淘宝认证未成功认证 -1.122e-01 1.251e+04 0.000 1.000
## 历史成功借款次数 6.345e-03 1.039e+03 0.000 1.000
## 历史成功借款金额 -2.726e-07 2.531e-02 0.000 1.000
## 总待还本金 6.928e-07 1.130e-01 0.000 1.000
## 历史正常还款期数 4.869e-03 1.911e+02 0.000 1.000
## 历史逾期还款期数 4.847e+01 2.300e+03 0.021 0.983
## 贷款总利息 3.563e-05 1.058e+00 0.000 1.000
## 利息占本金比例 7.447e-01 1.418e+05 0.000 1.000
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 2.3122e+04 on 29999 degrees of freedom
## Residual deviance: 6.5194e-07 on 29972 degrees of freedom
## AIC: 56
##
## Number of Fisher Scoring iterations: 25
尝试根据其他变量与是否逾期之间做逻辑回归,该回归模型中自变量的P值过大,该模型无法预测该用于是否存在逾期风险。
得出不同的借款渠道会影响借款利率,进而可以影响借款金额。该数据集中,电商渠道借款利率均值,中位数,最大值都是最低的,客户从电商的借款金额均值也远大于其他渠道。
从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。
尝试根据其他变量与是否逾期之间做逻辑回归,该回归模型中自变量的P值过大,该模型无法预测该用于是否存在逾期风险。
25% 的用户年龄小于24岁,75% 的用户年龄小于33岁
20岁的用户借款金额较少,随后借款金额几乎不随年龄的变化而变化,年龄和借款金额之间的相关性并不大。
从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。 ——